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تاریخ پذیرش: ۸۸/۷/۲۱ 


چالش‌های شیوه نگارش زبان فارسی در بازیابی اطلاعات از موتورهای 
کاوش وب 


شیوه‌های گوناگون در نوشتن یک واژه. یکی از مشکلاتی است که در بازیابی مدارک 
مربوطه از طریق ابزارهای جستجو وجود دارد. در زبان فارسی نیز برخی از واژه‌ها به ریخت‌های 
متفاوتی نوشته می‌شوند. به همین دلیل اين پژوهش به بررسی مسائلی پرداخته است که کاوشگران 
فارسی در کاوش ریخت‌های مختلف یک واژه با آن روبه‌رو هستند. برای پاسخگویی به سال‌های 
پژوهش از دو روش پیماش مقایسه‌ای و اسنادی استفاده شده است. جامعه پژوهش شامل سه موتور 
کاوش گ وگل یاهو و آلتاویستا است که امکان جستجو به زبان فارسی را فراهم کرده‌اند. 

با مطالعه و دقت در متون فارسی سیاهه‌ای شامل ۱۷ کلیدواژه انتخاب شد که هر کدام 
نمایان گر یک مورد از چالش‌های زبان فارسی در بازیابی اطلاعات هستند. پژوهشگران کلیدواژه‌ها 
را وارد فیلد جستجوی ابزارهای کاوش انتخایی کرده و تعداد بازیافت‌ها برای ه رکدام از 
موتورهای کاوش را ثبت کردند. 

تجزیه و تحلیل داده‌ها در دو سطح آمار توصیفی و استنباطی انجام شد. یافته‌ها نشان داد که 
موتورهای کاوش وب. شیوه‌های نگارش زبان فارسی را به منظور بهبود کاوش مورد توجه قرار 
نداده‌اند. همچنین رابطه معناداری بین شکل واژه و نوع ابزار جستجو وجود دارد. 


کلیدواژه‌ها: بازیابی اطلاعات موتورهای کاوش؛ شیوه نگارش» زبان فارسی 


۱ کارشناس ارشد کتابداری و اطلاع‌رسانی مه .ممطوب 6 تطد ول طاموع 82 
۲ عضو هیأت علمی دانشگاه شیراز 003)05۵8000.۵۲ ۳2۲2و 
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معد مه 


در زمانه‌ای به سر می‌بریم که در آن اطلاعات به شکل الکترونیکی تولید شده و انتقال می‌یابد. 
رشد علمی» فنی و فرهنگی در گرو برقراری ارتباط زبانی و کلامی با دنیای الکترونیکی دانش و فرهنگگ 
است که وب ام دارد و این جز با تقویت کیفی زبان ملی میسر نمی‌شود. لیکن زبان فارسیء در تلاقی با 
جهان الکترونیکی» به‌ویژه از بعد شیوه نگارش ‏ دارای معضلاتی است که کاوش در محتویات آن را دچار 
مشکل می کند. این مقوله مستلزم تمهیداتی چند است تا زبان فارسی را از زبان شعر و ادب و عرفان» به 
زبانی مناسب با پهنه الکترونیکی دادوستد دانش. تبدیل کند (صدیقی» ۱۳۸۳). 

پیرایش بر روی زبان‌های دنیا خیلی پیشتر از این آغاز شده است. گسترش استانداردهای آماده‌شده 
برای زبان» ساده کردن و کم کردن قاعده‌های پیچیده و استثناها در زبان روزمره و یکسان کردن گفتار و 
نوشتار از کارهایی انتتت که بر روی سیاری از زبان‌ها انجام شده‌است. برای نمونه» در زبان انگلیسی» 
زبان‌شناسان بسیاری از قاعده‌های این زبان را پیراسته‌اند و یادگیری این زبان را ساده کرده‌اند (یوسفان 
نجحف آبادی» ۳ 

۱ حٍِ ۲ و او و ِ ۰ 

در حال حاضر وبلاگ های ایرانی از نظر فراوانی» جزو پنج کشور برتر جهان هستند. اما ویژگی - 

۱+ شیوه‌انگاوفن وبلا ک‌ها بیشغر غیراستاندا ردو متغیی است: 

۲- نوشته‌های وبلاگ‌ها به نسبت حاوی غلط‌های املایی و نگارشی زیادی است. هرچند که بیشتر 
وبلاگ‌های مهم و پرخواننده» نگارش قابل قبولی دارند. 

۳- شیوه نگارش وبلاگ‌ها؛ تابع محدودیت‌های محیط الکترونیکی و عدم تطبیق آن با الزام‌های 

از طرف دیگر همه نویسندگان وبلاگ‌هاء بنا به اهمیتی که زبان فارسی به عنوان زبان رسمی ما 
دارد و به حکم مسئولیتی که به عنوان صاحب رسانه دارند» باید خود را موظف بدانند که برای حفظ 


سلامت زبان فارسی در رسانه خود تلاش کنند. برای این منظور لازم است نویسند گان وبلاگ‌ها؛ بر کاربرد 
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زبان در وبلاگ خود نظارت کنند و استانداردهای نگارشی زبان و خحط فارسی را رعایت کنند. 


مسئله و اهمیت پژوهش 


در قرن بیست‌ویکم اطلاعات به سرعت به سمت رقومی شدن پیش می‌رود. وب بزرگترین مرجع 
اطلاعات در عصر ما محسوب می‌شود. اما شیوه نگارش فارسی باعث بروز چالش‌های جدی در امر نمایه - 
سازی این زبان شده است. مسائل مربوط به خط. یکی از جنبه‌های مهم برنامه‌ریزی زبان است. ایجاد خط 
انتخاب خط مشت رک تغییر خط و اصلاح آن از رایج‌ترین شکل‌های برخورد با خط به حساب می‌آید. 
گفتار و نوشتار دو بستر برای تحقق زبان هستند که گفتار» بازتاب طبیعی‌تر آن است. اما نوشتار به دلیل 
آنکه صورت ثابتی دارد و تحولات زبان را منعکس نمی کند» نیاز به برنامه‌ریزی زبانی و اصلاح دارد 
(اسلامی» ۱۳۸۱). چنانچه الگویی مناسب برای رفع اين چالش‌ها ارائه شود» بخشی از مسائلی که امروز 
گریبان گیر زبان فارسی است. رفع خواهد شد. از جمله اين مسائل می‌توان به موارد زیر اشاره کرد: 
جستجوی بهینه در وب. ایجاد پایگاه‌های اطلاعاتی به زبان فارسی؛ ایجاد نظام هم آهنگ اطلاع‌رسانی در 


کشور و مسائل دیگر (حری» ۱۳۷۲). 


امروزه روش غالب در جستجوی اطلاعات از موتورهای کاوش وب. روش کلیدواژه‌ای است. اما 
جستجو به اين روش دشواری‌های خاص خود را دارد. چنانچه فردی به دنبال اطلاعاتی در مورد "آب 
گرمکن " باشده این کلیدواژه را می‌تواند به چهار شکل بنویسد: "آب گرم کنء آبگرم کن؛ آب گرمکن و 
آبگرمکن ". بنابراین موتورهای کاوش وب برای ه رکدام از این شکل‌هاء تعداد بازیافت‌های متفاوتی 
بازیابی خواهند کرد. چنانچه کاربری تنها یک شکل از این چهار مورد را به کار ببرد اطلاعاتی که به 
اشکال دیگر نوشته شده است را از دست خواهد داد. سوال مهمی که در اینجا مطرح می‌شود این است که: 
چگونه می‌توان بر این مسئله فایق آمد؟ آیا باید دست به اصلاح شیوه نگارش فارسی زد يا اينکه نظام‌هایی 


پیشرفته و سا زگار با این شیوه نگارش طراحی کرد؟ 


ابزارهای جستجو اساسا بر مبنای زبان انگلیسی طراحی شده‌اند و کشورهای غیر انگلیسی‌زیان 


چالش‌های مشابهی با آن‌ها دارند. در پژوهش‌های انجام شده در خارج از کشور» پژوهشگران به مقایسه و 
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ارزیابی موتورهای کاوش بین‌المللی و محلی پرداخته‌اند. ریشه‌سازی » کوتاه‌سازی و جستجوی مثرادف‌ها 
از جمله معیارهایی است که این پژوهشگران از آنها در ارزیایی‌های خود به کار برده‌اند. اما از آن جایی که 
بسیاری از اين امکانات در ابزارهای کاوش فارسی وجود ندارد. پژوهشگران ایرانی را به سمت ارزیابی‌های 
متفاوت‌تری سوق داده است. پژوهشگران ایرانی معیارهایی مانند عملگرهای بولی» میزان پیوند به یکك 
موتور کاوش حجم پایگاه اطلاعاتی» رتبه بندی بازیافت‌هاء نمایش اطلاعات» واسط کاربر روز آمد بودن 


اطلاعات سرعت بازیایی اطلاعات. نمایه سازی اطلاعات را در پژوهش های خود به کار برده‌اند. 


الف) بیشینه پژوهش در خارج از ابران 

هدلاند و دیگران (2000 ,.21 6 ۳1601000) به بررسی ویژگی های زبان سوئدی از دیدگاه بازیابی 
اطلاعات پرداختند. مشکلی که اين پژوهشگران با آن مواجه بودند بازیابی ضعیف اطلاعات به زبان 
سوئدی بود. این زبان» ویژگی‌های منحصربه‌فردی دارد. از آن‌جمله می‌توان به مذ کر و مونث بودن نام‌ها و 
نیز فراوانی استفاده از واژه‌های هم‌نگاشت اشاره کرد. آنها مطالعه‌ای مقایسه‌ای بر روی زبان‌های سوئدی؛ 
فنلاندی و انگلیسی انجام دادند تا میزان ابهام های واژگانی در این زبان‌ها را شناسایی کنند. پژوهشگران 


پیشنهاد می‌کنند که برچسب گذاری ادات سخن "برای بازیابی واژه‌های هم‌نگاشت. می‌تواند مفید باشد. 


سر و کا (2000 ,5201>2) نسخه‌های لهستانی چند ابزار جستجوی بین‌المللی را به همراه چند موتور 

کاوش محلی مورد سنجش قرار داد. مهم ترین معیار این سنجش؛ دقت " ابزار کاوش بود که بر اساس ربط 

قضاوتی ۱۰ نتیجه نخست هر کاوش محاسبه شد. پژوهشگر تعداد بازيافت‌ها و زمان صرف شده برای یکك 

کاوش را در مورد هر کدام از موتورهای کاوش ثبت کرد. در نتیجه این پژوهش "پالسکی اینفوسیک " به 

عنوان بهترین ابزار کاوش انتخاب شد. 

مونز و دوریجکه (2002 ,عازن 6 ک 0۷1002 با تمرکز روی اثرات تحلیل‌های ریخت‌شناسی 

همچون ریشه‌سازی و جداسازی واژه‌های مر کب. به بررسی کارآیی بازیابی اطلاعات پرداختند. این مطالعه 

پرروی زبان‌های هلندی آلمانی و ایتالیایی انجام شد. یافته‌ها نشان داد که بازیابی اطلاعات در حدود 1۲۵ 
برای زبان آلمانی» ۶۹/ برای زبان هلندی و ۲۵/ برای زبان ایتالیایی بهبود داشته است. 
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بارایلان و گتمان (2002 ,صقان لگ «327-1) توانایی ابزارهای جستجو را در مورد زبان‌های 
غیرانگلیسی مورد بررسی قرار دادند. ۴ زبان روسیء فرانسوی» مجاری و عبری جامعه این پژوهش به شمار 
می‌آیند. برای هر کدام از اين زبان‌ها؛ ۳ موتور کاوش عمومی یعنی "آلتاویستا "» "فست " و "گوگل " به 
همراه چند موتور کاوش محلی (مخصوص هر کدام ازاین زبان‌ها) آزمایش شد. این بررسی نشان داد که 
موتورهای کاوش عمومی وب. ویژگی‌های زبانی زبان‌های غیر انگلیسی را در جستجوی اطلاعات نادیده 
می‌گیرند. 

مقداد (2005 ,۷]0016024) در پژوهشی» عملکرد ۳ ابزار جستجوی عمومی را با ۳ موتور کاوش 
عربی (که به طور خاص مسائل زبان‌شناختی عربی را لحاظ می‌کنند) مورد مقایسه قرار داد. یافته‌ها نشان داد 
که موتور های کاوش عمومی نظیر "آلدوب " "آلتاویستا" و "گ وگل " در بازیابی مدارک عربی» ناقص 
عمل می‌کنند. همچنین یافته‌های این پژوهش» نیاز به پژوهش‌های بیشتر در زمینه عملی بودن ابزارهای 
جدید بازیابی اطلاعات در موتور های کاوش را نشان داد. 

تاث (2006 ,۲0/8) به بررسی قابلیت‌های زبان‌شناختی موتور های کاوش انگلیسی و مجاری 
پرداخت. پژوهشگر ۳ ابزار جستجوی انگلیسی "گوگل " "آلتاویستا" و "آلدوب" را با ۵ موتور کاوش 
محلی مورد مقایسه قرار داد. تحلیل داده‌ها بر پایه چند شاخحص انجام شد که عبارت بودند از: ریشه‌سازی» 
بازیابی لهجه‌های مختلف. کوتاه‌سازی و جستجوی مترادف‌ها. یافته‌ها حاکی از آن بود که موتور های 
کاوش محلی. مسائل زبان مجاری را بهتر از موتور های کاوش انگیسی مورد توجه قرار داده بودند. 
ابزارهای انگلیسیزبان, لهجه‌های مختلف زبان مجاری را به خوبی پشتیبانی نمی کردند. که این امر منجر به 


بازیایی ضعیف اطلاعات می‌شد. 
ب) پیشینه در ایران 
کوشا (۱۳۸۱) با استفاده از معیارهای مستند به ارزیابی جداگانه و نیز تجزیه و تحلیل مقایسه‌ای 


ابزارهای کاوش دارای واسط جستجوی فارسی‌پرداخت. شش ابزار کاوش بر‌گزیده از طریق ۳۷ معیار 
مرتبط با قابلیت‌های جستجو و بازیاپی اطلاعات با یکدیگر مورد مقایسه قرار گرفتند. موتورهای کاوش 
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اتتخابی عبارت بودند از: "گوگل " ابران کلیک ۰ ایران‌هو " "ایران‌مهر " "پارسیک " و 
"این دای کتوری *. نتیجه پژوهش نشان داد که از نظر امکانات جستجو و بازیایی اطلاعات. ابزار کاوش 
1 در رتبه نخست و راهنمای موضوعی "ایران‌هو" در رتبه دوم قرار دارند. به منظور بررسی 
عامه پسند و رایج بودن ابزارهای کاوش پژوهشگر تعداد صفحه‌ها یا وب سایت پیوند داده شده به آنها را 
مورد مقایسه قرار داد. نتیجه نشان داد که رابطه مستقیمی میان رایج و عامه‌پسندبودن ابزارهای کاوش مورد 


پوسفان نجف آبادی (۱۳۸۲) در پژوهشی با عنوان "یک نظام بازیابی متنی برای زبان فارسی برپایه 
معانی پنهان " نظامی را طراحی کرده است که با استفاده از نمایه گذاری معانی به بازیابی اطلاعات متنی 
زبان فارسی می‌پردازد. کارآیی این نظام با ریشه‌یایی و بدون ریشه‌یابی با استفاده از یکک مجمو عه اسناد 
گرد آوری‌شده به اين منظور و به کمک معیارهای دقت و بازیافت مورد ارزیابی قرار گرفته‌است. برای 
کمک به یافتن فهرست واژه‌های سراسری و ریشه‌یایی» یک زبان برنامه‌نویسی ساده. طراحی و بر پایه 


قاعده‌های زبان فارسی. روشی نوین برای شناسایی خود کار فعل‌های فارسی پیشنهاد شد. 


رائی ساربانقلی (۱۳۸۴) در پژوهش خود به بررسی مشکلات جستجو و بازیابی اطلاعات به زبان 
فارسی در اینترنت به کمک کاربران مرکز اینترنت دانشگاه آزاد اسلامی شبستر پرداخت. یافته های 
پژوهش نشان داد که ۷۷/ کاربران از جستجوی پیشرفته گ وگل استفاده می‌کنند. بیشتر مشکل کاربران در 
جستجوی عدم توجه ایشان به شکل‌های مختلف نوشتاری واژه و عدم استفاده از عملگر ۵" بود. این 
پژوهش, رابطه‌ی معناداری بین گذراندن دوره‌های آموزشی و نیز مدت استفاده کاربران از اینترنت با 
مهارت آنها را نشان داد. 


مطالعه پژوهش‌های انجام شده نشان داد که موتورهای کاوش در بازیابی منابع بر اساس شکل‌های 
مختلف یک واژه توانمند نیستند. با توجه به آنچه در مقدمه و پیشینه پژوهش بحث شد. از آنجایی که 


بسیاری از مدارک که با املاء‌های مختلف یک کلمه در محیط اینترنت وجود دارند» نمی‌توانند توسط 


موتورهای کاوش بازیابی شوند» ضروری است که از طریق پژوهش بتوان راهکارهای لازم را شناسایی 


کمن مع] 1 
ممطمم] 2 

تطعصط جروع] 3 
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دوره دهم شماره ۲» سال ۱۳۸۸ چالش‌های شیوه نگارش زبان فارسی ۷۳ 


کرد. بنابراین هدف این پژوهش شناسایی راه‌ها و روش‌هایی است که از مشکلات بازیایی مدارکک که بر 
اساس شیوه نگارش واژه‌ها به وجود می‌آید جلوگیری کرد. در اين راستا سوال‌های پژوهشی زیر طراحی 
شده است: 

کدام‌یک از ویژ گی‌های شیوه نگارش زبان فارسی در بازیابی اطلاعات از وب مشکل 


۲ . آیاابزارهای کاوش بین‌المللی (با در نظر گرفتن شیوه نگارش فارسی) نتایج جستجوی 
کفتان برای شکل‌های مختلف یک کلمه به دست‌می‌دهند؟ 


" آیا رابطه معناداری بین شکل واژه‌ها و نوع ابزار جستجو وجود دارد؟ 


طرح پژوهش 


برای پاسخگویی به سوال نخست پژوهش. روش اسنادی انتخاب گردید. برای پاسخگویی به سوال 
های دوم و سوم پژوهش از روش پیماش مقایسه‌ای استفاده شد. با کمک روش پیش گفته مشکلاتی که 
شکل‌های مختلف واژه در ابزارهای کاوش انتخایی ایجاد می کنند. مورد بررسی و تجزیه و تحلیل قرار 


گرفت. 

بررسی ادییات پژوهش نشان داد که هفت موئور کاوش بین‌المللی یعتی آلتاویستاه اکسایت " 
گ وگل هات بات » اینفوسیک ‏ لایکاس "و یاهو" به عنوان پر استفاده‌ترین ابزارهای کاوش در دنیا شناخته 
شده‌اند. در این میان تنها "گوگل " "یاهو" و "آلتاویستا" امکان جستجو به زبان فارسی را فراهم کرده‌اند. 
بنابراین» این سه موتور کاوش به عنوان بستر برای پیشبرد این پژوهش در نظر گرفته شدند. ابزارهای کاوش 
بین‌المللی» از عنکبوت " یا خزنده به منظور شناسایی و نمایه‌سازی صفحه‌ها یا سایت‌های وب در زبان‌های 
مختلف از جمله زبان فارسی استفاده می‌ کنند. این روش نوعی نمابه‌سازی خود کار می‌باشد و می تواند 


صفحه‌های فارسی را در قالب یونی کد " شناسایی و در پایگاه خود ذخیره کنند. 
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۷۴ مطالعات تربیتی و روانشناسی دانشگاه فردوسی مشهد دوره دهم شماره ۰۲ سال ۱۳۸۸ 


۳ بررسی پژوهش‌های فارسی. سیاهه‌ای شامل ۱۷ کلیدواژه به صورت تعمدی به عنوان نمونه 
انتخاب شد. این کلیدواژه‌ها هر کدام نمایانگر یک مورد از چالش‌های زبان فارسی در بازیابی اطلاعات 


هستند. این کلیدواژه‌ها که به عنوان وسیله گرد آوری داده‌ها شناخته می‌شوند» عبارتند از: 


موسی پا موسا اتاق با اطاق 

ی توراه یا تورات 

باغها یا باغ ها عطایی یا عطائی 

موحدی يا موحدی مورچه گان یا مورچگان 

پتاسیم یا پتاسیوم خانه من يا خانه‌ی من 

زبان شناس يا زبانشناس مسوول با مسول 

مسئله یا مسأله دقیقاً با دقیقن 

شمشیرباز با شمشیرباز پرتو آفتاب یا پرتوی آفتاب 
: فرایند يا فرآیند 


به منظور انجام کاوش‌ها» نخست به بخش جستجوی پیشرفته ابزار کاوش وارد شده. سپس در 
قسمت زبان‌ها؛ زبان فارسی به عنوان پیش فرض جستجو انتخاب شد. هر یک از شکل‌های مختلف واژه را 
وارد فیلد جستجوی ابزارهای کاوش انتخابی کرده. سپس تعداد یافته های حاصل از جستجو توسط هر 
یک از موتور های کاوش ثبت شد. اگرچه موتور کاوش "آلتاویستا" امکان جستجو به زبان فارسی را 
فراهم کرده‌است. اما در قسمت جستجوی پیشرفته» امکان انتخاب زبان به کاربران داده نمی شود. این 
مشکل باعث شد که به هنگام بازیابی برخی از کلیدواژه‌ها. تعدادی از بازيافت‌ها به زبان عربی ارائه شود. 


مشخص است که صافی زبان " در اینجا درست عمل نکرده‌است. 


تجزیه وتحلیل داده ها 


در این پژوهش. تجزیه و تحلیل داده‌ها در دو سطح توصیفی و استنباطی انجام شد. توصیف 


داده‌ها با آماره‌های توصیفی (جدول فراوانی و نمودار درصد) صورت گرفت. برای بررسی معناداری 


معمناع‌مم ] 1 
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ِ ِ 1 و ۱ ر ار ۸ ۲ ۲ 
رابطه بین نوع موتور کاوش و شکل واژه از آماره‌های استنباطی (آزمون خی دو و ضریب فی ) استفاده 


شده است. 


سوال ۱. کدامیک از ویژگی‌های شیوه نگارش زبان فارسی در بازیابی اطلاعات از وب مشکل 


در پاسخ به این سوال باید به طور کلی شرایطی که موجب نگارش یک واژه به ریخت‌های 
گوناگون می‌شود را مورد مطالعه قرار داد. برخی از مطالعه‌های صورت گرفته (مانند مرتضایی» ۱۳۷۶) نیز 
به این امر توجه کرده‌اند. نتیجه بررسی نشان داد که عامل‌هایی مانند مهارت استفاده از حالت‌های 
نوشتاری یا دستوری سایر زبان‌ها مانند عربی» سلیق‌های مختلف در نگارش واژه‌ها و یا برگردان آنها به 


فارسی صورت‌های مختلف یک واژه را در نگارش تشکیل می‌دهد. نمونه‌هایی در این رابطه به شرح زیر 


می‌باشد: 


برگردان واژه‌های خارجی مانند پستالوزی /پستالزی پتاسیم یا پتاسیوم 

نشانه‌های جمع مانند مدارس/ مدرسه‌هاء استادان/ استادها 

پیوسته‌نویسی یا جدانویسی مانند مردم شناسی/ مردمشناسی. روان‌شناسی/ روانشناسی 
تنوین مانند اصلا/ اصلن دقیقً/ دقيقن 

کسره اضافه مانند اسب سواری/ اسب سواری 

صامت میانجی "ی" مانند پرتوی آفتاب/ پرتو آتاب 

همزه برای واژه‌های مختوم به "ها ای بیان حرکت مانند جامه من / جامةٌ من/ جامه‌ی من 
همزه پایانی مانند انشاء/ انشاء املاء/ املا 


همزه پایانی متصل به ان وحدت یا نکره مانند کرسی کر بل (عطایی / عطائی) 


۳ به کار بردن همزه به صورت‌های مختلف مانند مسئله/ مسأله» مسئول/ مسوول 


2 
زر !۱ 
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۷۶ مطالعات تربیتی و روانشناسی دانشگاه فردوسی مشهد دوره دهم شماره ۰۲ سال ۱۳۸۸ 
۱. الف مقصوره که گاه به صورت الف مانند اسماعیل» هارون و جز آن نوشته می شود و گاه 
به همان شکل عربی مانند عیسی 
۳ استفاده از ۳" و "۲" به جای یکدیگر مانند فرآهم/ فراهم بررآیند/ برایند 


۴ کلمات خاص در پیوسته‌نویسی و جدانویسی مانند علاقمند/ علاقه‌بندی» اندیشمند/ 


اند بشه مند 
۵ "تای " منقوط مانند صلا/ صلات. مشکوء/ یا مشکات 
۶ نشانه تشدید مانند معين/ معیّن» علی /علّی 


سوال ۲. آیا ابزارهای کاوش بین‌المللی (با در نظر گرفتن شیوه نگارش فارسی) نتایج جستجوی 
یکسانی برای شکل‌های مختلف یک کلمه به دست می‌دهند؟ 


۱. شیوه ب ررگردان واژه‌های خارجی 


جدول ۱. آمار بازيافت‌ها برای مقوله شیوه بر گردان واژه‌ها خارجی (82) 
۱ ۳ موتور کاوش 
نب آماره ِ ۰ 
ِ کول | باهو ‏ [ اناوت | جمه کل 
فراوانی ۱۴۰۰۰ ۳۳۹۰۰ ۱۵۴۰۰ ۱۵2۳۳۰۰ 
پتاسیم 
درصد 9۷/۸ 3/۶ ۶/۶ ۰۰ 
شکل واژه 
فراوانی ۹۳ ۳۴۰ ۳۴۲ ۷۷۵ 
پتاسیوم : 1 
درصد ۲ ۴۳/۹ ۳۴/۱ ۰۰ 
فراوانی ۳ ۱۴۳۳۴۰ ۱۲ ۱۵۴۰۷۵ 
جمع کل 
درصد 9۷/۶ 2/۷ ۶۷ ۰۰ 


همان‌طو رکه در جدول نشان داده شد. به طور کامل دو نتیجه متفاوت برای این دو کلیدواژه 
بازیابی شده است. اطلاعات بیشتری با کلید واژه "پتاسیم " ذخیره شده است و انتخاب کلیدواژه "پتاسیوم " 


باعث از دست رفتن این اطلاعات می‌شود. همچنین در هيچ‌یک از موتور های کاوش, تمهیدی برای 


دوره دهم شماره ۲ سال ۱۳۸۸ چالش‌های شیوه نگارش زبان فارسی ۷۷ 


۱ 


بازیابی صفحه های دارای کلیدواژه "پتاسیم " در هنگام جستجوی کلیدواژه "پتاسیوم" اندیشیده نشده 
نت 


۲ شیوه نگارش نشانه‌های جمع 


جدول ۲: تعداد بازيافت‌ها برای مقوله شیوه نگارش نشانه‌های جمع (0-2) 


۱ موتور کاوش 
متغیر آماره ِ جمع 
ک و کل پاهو آ لتاویستا ت 
فراوانی ۴۴۰۰ ۳۷۰۰ ۱۸۵۰۰ ۳۵۶۰۰ 
باغ ها 
درصد 1/۴ ۷/۶ ۱/9 ۳۰۰ 
شکل واژه 
فراوانی 2۴۰۰ ۱9۶۰۰ ۱۹۰۰ ۹۳۹۰۰ 
باغها 
درصد ۷/۷ ۸۲۰ ۳/۳ ۰۰ 
فراوانی 2۸۸۰ ۱۹۳۰۰ ۳۰۴۰۰ ۱۱۸۵۰۰ 
جمع کل 
درصد ۸/۱ ۶/۳ ۵/۸۷ ۰۰ 


چناچه کاربری کلیدواژه "باغها" را انتخاب کند» بیشتر اطلاعات موجود که با کلیدواژه "باغ ها" 
ذخیره شده است را از دست می‌دهد. ازطرف دیگر انتخاب "باغ ها" نیزه ریزش کاذب به بار می‌آورد» چرا 
که موتورهای کاوش؛ هر فاصله خالی بین واژه‌ها را همچون عمل گر" ۸۵ در نظر می‌گیرد. بنابراین؛ 
صفحه‌هایی بازیابی می‌شوند که در آن کلمه "ها" به‌تنهایی آمده است. پس هیچکدام از موتورهای کاوش 
تمهیدی برای این مسئله نیند یشیده‌اند. 

۳ پیوسته‌نویسی و یا جدانویسی ت رکیب‌ها 


جدول ۳. تعداد بازیافت‌ها برای مقوله پیوسته‌نویسی و یا جدانویسی ترکیب‌ها (83) 


۲ ۳ موتور کاوش 
نب آماره ۰ 
کت کول | باهو ‏ [ آتاويت | جمه کل 
شک واژه فراوانی ۱۳۳۰۰۰ ۱۲۱۲۰۰ ۱۲۳۱۷۰ ۳۰ 
زبان شناس 
درصد ۳۹/۷ ۳۴/۶ ۳۵/۷ ۳۰ 
زتاتقتاس فراوانی ۸0۵۹ ۹۲ ۱۹۰ ۸۹۱ 


تمجوون 1 


۷۸ مطالعات تربیتی و روانشناسی دانشگاه فردوسی مشهد 


درصد 


ف ان 
فراوابی 
زبان‌شناس 
درصد 


فراوانی 
جح 


درصد 


۸۶2 


۱۳/۸ 


۳/۶ 


دوره دهم شماره ۲ سال ۱۳۸/۸ 


۳/۶ 
۳۰۳-۰ 
(#۳ 
۴۰۹۴۲ 


/3 


۳۷/۷ 

۳۰۸۰۰ 
1/۳ 

۳۳۹۹۰ 


۸/۴ 


۰ 
۳۱۳۳۶۹۵ 

۱-۰ 
۸۰۹۵۵۰ 


۱۰۰ 


همان‌طو رکه از جدول برمی‌آید» اين ترکیب را به سه صورت می‌توان نوشت: جدانویس (زبان 


شناس)» پیوسته‌نو یس (زبانشناس) و بی‌فاصله‌نو یس (زبان‌شناس) (کابلی» ۳۷۳ موتورهای کاوش 


"آلتاویستا" و "یاهو" برای شکل‌های جدانویس و بی‌فاصله‌نویس دو نتیجه یکسان به بار آورده‌اند» در 
حالی که موتور کاوش " گ وگل" شکل پیوسته‌نویس و بی‌فاصله‌نویس را یکی محسوب کرده‌است. چنین 
عملکردی به روبات یا عنکبوت موتورهای کاوش برمی گردد که ه رکدام طبق پیش‌فرض‌هایی که برای 
آنها تعریف شده است. واژه‌ها را شناسایی کرده و در پایگاه خود. نمایه می کنند. عملکرد مطلوب آن است 


که موتورهای کاوش برای هر سه شکل نتیجه یکسانی به بار آورند. 


۴مشل وین 


جدول ۴: تعداد بازیافت‌ها برای مقوله تنوین (2ع) 


متغیر آماره 


شکل واژه 


گ و کل 
۴۵۰ 
۳/4۹ 
۱۳۳۰۰ 
۳۳/۶ 


۳/۹/۳۰ 


۳/۳ 


موتور کاوش 
باهو 
۰ 


1۳۳/۹ 
۳۱۸۰ 
۳ 

2۸۰ 


۳۳/۷ 


آلتاو پستا 
۸۱2/9۵۰۰۰ 
۳۳/۸ 
۳۳۳۰ 

۳/۳ 


۸/۳۳۰ 


۳ 


جمع کل 


۳۰۱۸۰۰ 
۳-۰ 
1۶۷۰ 
۳-۰-۰ 

۴/۰ 


۰۰ 


در بعضی صفحه کلیدهاء تنوین در جای همیشگی خود قرار نمی گیرد. اين امر ماشین‌نویس‌ها را سر 


در گم می‌کند. به‌ناچار» تنوین نصب را که بیشتر در قیدها (مانند واقعا فور جداًّ) کاربرد دارد به همان 


صورتی که خوانده می‌شوند (واقعن, فورن جدن) به کار می‌برند. بر اساس نتیجه‌ایی که از جدول ۴ به 
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دست آمده است. می‌توان این‌طور استنباط کرد که اين پراکندگی در کلیدواژه‌هایی که دارای تنوین 


۵ کسره اضافه 
جدول ۵: تعداد بازیافت‌ها برای مقوله کسره اضافه (0-2) 
: موتور کاوش 
نب آماره ۰ 
ِِ عوقل | باهو ‏ [ آتاويت | جبه کل 
فراوانی ۱۳۰۰۰ ۱۱۰۰ ۱۵ ۴۷/۰ 
شمشیرباز 
۱ درصد ۳۴/۷ ۳۳/۴ ۳/6۹ ۰ 
شکل واژه 
فراوانی ۷/۷۳۰۰ ۱۵۰۰ ۱.۰ ۱۳-۸۰۰ 
شمشیرباز 
2 درصد ۸/۹ ۴/۵ ۳۹/۶ ۰۰ 
فراوانی ۱۳۴۷۰۰ ۱۳۱۰۰۰ ۳ ۹۳۸۷۳۰ 
جمع کل 
درصد ۳۷/۷ ۳۷ ۳۵/۳ ۰ 


در دو صورت. با وارد کردن يا نکردن نشانه کسره اضافه در نوشتار» موتور کاوش گوگل دو 
عمل کرده‌اند. 
۶ صامت میانج ۳ 


جدول ۶: تعداد بازيافت‌ها برای مقوله صامت میانجی ای " (2-ع) 


۱ ۳ موتور کاوش 
متغیر آماره ِ جمع 
ک و کل پاهو آ لتاویستا 
۲ فراوانی ۸۰۰۰۰ ۱۳۸۸۰۰ 9۰ ۳۱۳۹۴۰۰ 
پرتو افتاب 
درصد ۳/۳ ۳۴/۴ ۳/۳ ۳-۰۰ 
شکل واژه 
3 فراوانی ۱۶۵۰ ۱۵۷۰ ۱۰۳۰۰ ۱۳۲۰ 
پرتوی آفتاب 
درصد ۱۳/۳۲ ۱/۶( ۷۶/۳۲ ۳-۰۰ 
فراوانی ۸۶۵۰ ۸۰۳۷۰ ۷۹۹۰ ۱۴۳۳۹۲۰ 
جمع کل 
درصد ۳۴ ۳۳/۸ ۳۳/۹ ۰۰ 


۸۹ مطالعات تربیتی و روانشناسی دانشگاه فردوسی مشهد دوره دهم شماره ۲ سال ۱۳۸۸ 
جوینده اطلاعات در حین کاوش. شاید هیچ‌گاه به اين نکته نیندیشد که گذاشتن يا نگذاشتن 
میانجی "ی" چه تغییر زیادی در تعداد بازیافت‌ها خواهد گذاشت. 


۷ استفاده با عدم استفاده از "همزه " برای واژه‌های مختوم به "های" بیان حر کت. در حالت 


مضاف 
جدول ۷ تعداد بازیافت‌ها برای مقوله استفاده یا عدم استفاده از "همزه " (0-3) 
۲ بت موتور کاوش 
نب آماره ِ ۰ 
5 ول | یاهو | آناویت | که کل 
7 فراوانی ۳۸۰۰ ۳۳۶۰ ۹۳۰ ۱۴۳۳۷۰ 
یه من 
درصد ۹/۶ ۱۵/۸ ۶۴/۵ ۰۰ 
فر اوان ۳۸۰۰ ۳۳۶۰ ۳۵۶۰ ۷۶-۲۰ 
۲ ۷ فزاوای 
شکل واژه خانه من 
درصد ۳۶/۷ ۹/۷ ۳۳/۶ ۰۰ 
۳ فراوانی ۱۳۹۰۰۰۰ ۱۳۳۰۰۰۰ ۱۱ ۳۲ 
هی من 
درصد ۳۵/۶ ۳۴ ۳/۴ ۰۰ 
فراوانی ۱۳۹۵۶۰۰ ۱۳۳۴۵۲۰ ۱۱۱۷۰ ۱۳۹۰ 
جمع کل 
درصد ۳۵/۶ ۳۳/۹ ۳۰۴۵ ۳۰۰ 


نتیجه غیر منتظره این است که ت ر کیب "خانه‌ی من " بازیافت‌های بسیار بیشتری از دو تر کیب دیگر 
به دست داده است» در حالیکه نوشتن دو تر کیب دیگی برای ماشین‌نویس آسان‌تر است. 


۸ "همزه ۲ پابانیی 
جدول ۸: تعداد بازيافت‌ها برای مقوله "همزه" پایانی (2-ع) 


۱ 3 موتور کاوش 
ب آماره ۰ 
ِ کول | هو ] آناویت | *ه کل 
فراوانی ۳۳۳.۰ ۱۹.۰ ۴۹۰۰ ۱[ 
امل 
۱ درصد 9/۴ ۸ ۹/۶ ۰۰ 
شکل واژه 
فراوانی ۹۷ ۱۱۶۰ ۱۳۱۱۴-۰۰۰ ۱۱۷ 
املاء 
درضا ۰/۵ 1/۷ ۹۸/۸ ۰۰ 
فراوانی ۱۳۵۳۳۲ ۱۱۳۵۰ 2 3۸۷( 
جمع کل 
درصد 1۳/۷ ۸ ۳۸۷ ۰۰ 


دوره دهم شماره ۲ سال ۱۳۸۸ چالش‌های شیوه نگارش زبان فارسی ۸۱ 


این ناهماهنگی در شیوه نگارش "همزه " پایانی» به راحتی موجب از دست دادن اطلاعات با ارزش 
می‌شود. به طور نمونه در موتور کاوش آلتاویستا؛ فردی که شکل دوم را به کار می‌برد» حدود ۲۸۰ هزار 
نتبجه جستجو را از دست می‌دهد. 


۹ "همزه" پابانیی ۷ ۱ به "بای " وحدت با نکره 


جدول :٩‏ تعداد بازیافت‌ها برای مقوله ""همزه " پایانی متصل به "یای" وحدت يا نکره (8-2) 


۱ موتور کاوش 
ب آماره ۰ 
5 کول | _ هو ] آناویت | جه کل 
فر اوا: ۱۸۴۰۰ 2 ۱۹۰ ۳۱۳۴۰۰۰ 
فراوابی 
عطائی 
درصد ۸/۲ ۳۳/۸ ۳۸/۷ ۰۰ 
9 فر اوا: ۸۲ ۶۶و ۱۰۹ ۳۸۷۹ 
‌ فراوانی 4 5 و ّ 
عطایی 
درصد ۸/۶ ۳۳/۶ ۳۷/۹ ۳-۰۰ 
فراوانی ۱۰۷/۰ ۱۹۳۳.۰ ۱۱۸۹۰۰ 3( 
جمع کل 
درصد ۸۹/۷ ۳۷/۷ ۳۳/۶ ۰۰ 


نکته جالب در این کاوش. این است که موتورهای جستجوی آلتاویستا و یاهو برای هردو شکل 
نتیجه یکسانی داشته‌اند. اما مشخص نیست که چرا در واژه‌های دیگری که با همزه به کار می‌روند (مانند 
مسئله/ مسأله و مسئول/ مسول) این اتفاق نیفتاده است. 


۰. به کاربردن "همزه" به‌صورت های مختلف 


حدول ۱۰-۱: تعداد بازیات‌ها برای مقوله به کاربردن "همزه" به‌صورت های مختلف (2حو) 
۳ موتور کاوش 
ب آماره ِ ۰ 
: کول یاهو ‏ ] آلتاوستا 0 
فراوانی م۳ ۱۳۰ ۳۰ ۱۰ 
مسئول 
دول ۶/۳ ۳۶/۸۹ 9/۹ ۰۰ 
شکل واژه 
فراوانی ۱۴۱۰۰۰ ۱9۰۰ ۱۰ ۴9۹۳/۰۰ 
مسژول 
ره ۳/۲ ۳۳۸ ۳۶/۰ ۰۰ 
فراوانی ۱-۶-۰۰( اضر ی( ۱۳ 
جمع کل 
۳ ۷/۰ ۳/۰ ۳۰ ۰۰ 


۸۲ مطالعات تربیتی و روانشناسی دانشگاه فردوسی مشهد 


جدول ۱۰-۲: تعداد بازیافت‌ها برای مقوله به کاربردن "همزه" به‌صورت های مختلف (0-2) 


متغیر آماره 


مسأله 


شکل واژه 


درصد 


گ و کل 
1۱۳۴۳۰۰۰۰ 
۳۳۶ 
۱۳۰۰.۰ 
۳/6۹ 


۱ 


۹/۳ 


دوره دهم شماره ۲ سال ۱۳۸/۸ 


موتور کاوش 
باهو 
۱۳۷/۰۰۰۰ 


۶/۴ 
۷۳۷/۷۳۰۰۰ 

512 
۱۱۴۳۰۰ 


۳۳/۸ 


آلتاویستا 
۳۹/۰ 
۳/۰ 
۱۳۳ 
1۸۳/۸۱ 
1 


2۸۳/۷ 


جمع کل 


(۱۰ 
۳-۰ 
۴۵۳۰۰ 
۳-۰ 


۹/۱۳۰۰ 


۱۰۰ 


این دو کلیدواژه از واژه‌های پربسامد در فارسی هستند و نتیجه به خوبی عدم یکدستی در نگارش 


0۳ 


همزه" را نشان می‌دهند. 


۱. تنوع استفاده از "الف " مقصوره 


جدول ۱۱: تعداد بازیافت‌ها برای مقوله تنوع استفاده از "ی" در واژه‌های عربی مختوم به ۳" (3-ع) 


متغیر آماره 


۱ ۰ فراوانی 
شکل واژه موسی 


فراوانی 


درصد 


گ وکل 
۱ 
۱۳/۳۲ 
۱۴۳۹۰۰۰ 
12/۹ 
۷۳۶ 
۴/۸ 


۱۰۰ 


۱/۳۲ 


آلتاوستا 
۱۳۴۷/۰۰۰۰ 
۶/۶ 
۱۳۴۸۰۰۰ 
۳/۲ 
۱۳۹۰۰ 
۳۷/۳ 


۱۱۱۰ 


۳/۳۲ 


جمع کل 


۴۹۵2۹۰۰۰ 
۳-۰ 

۴۲۱۳۵۰۰۰ 
۳-۰ 
۱۳۹۸۶ 
۳-۰ 

۱۹۲۰ 


۰۰ 


حرف "ی" روی بعضی صفحه‌کلیدها به شکل عربی آن نوشته می‌شود (یعنی به صورت ی). 


داده‌های جدول ۱۱ بیانگر این است که موتورکاوش "گوگل" برای دو شکل موسی و موسی, به طور 


دوره دهم شماره ۲ سال ۱۳۸۸ چالش‌های شیوه نگارش زبان فارسی ۸۳ 


کامل دو نتیجه متفاوت به دست می‌دهد. این نکته باید به کازشگران آموزش داده شود که برای نوشتن 
حرف "ی" به شکل فارسی» باید از کلید شیفت به همراه کلید دیگری که در هر رایانه‌ای متفاوت است- 
استفاده کنند. 


۳. تنوع املایی بعضی واژه‌ها که همه درست هستند 


جدول ۱۲. تعداد بازيات‌ها برای مقوله تنوع املایی بعضی واژه‌ها که همه درست هستند (82) 


: ۳ موتور کاوش 
ب آماره ِ ۰ 
ِّ کول[ _ هو ] آتاويت | جه کل 
فراوانی ۱۴۰۰۰۰ ۱۱۳۰۰۰ ۱۰ ۱۳/۳ 
اتاق 
درصد ۷/۷ ۶/۹ ۷/۷ ۳-۰ 
شکل واژه 
فراوانی ۱۳۵۰۰۰ ۸۳۰۰ ۹۸۹۳۰ ۱۳۱۹۰۰ 
اطاق 
درصد ۳۹/۹ ۳۸/۵ ۳/۵ ۰۰ 
فراوانی ۱-۸-۶۵۰۰( ۰ ۱۱ ۱۱۱۰ ۴۶-۱۴۵۹۳۹۰۰ 
جمع کل 
فل ۴۵/۰ ۳۷/۰ ۸/۰ ۰۰ 


کاوشگری که می‌خواهد به سرعت به اطلاعات دسترسی پیدا کند» کمتر حضور ذهن دارد که 
تمام صورت‌های املایی را به خاطر بیاورد. 
۳. استفاده از ۲۱۳ و ۲۳" به‌جای هم 


جدول ۱۳: تعداد بازیافت‌ها برای مقوله استفاده از ۳" و ۲۳" به جای هم (2-) 


۱ 3 موتور کاوش 
ب آماره ۰ 
ِ کول | _ هو ] آناویت | *ه کل 
3 فراوانی ۱۰۰ ۴۰۱۳۰ ۱۴-۱۵۰۰ ۱۱۳/۵۰۰۰ 
فرآیند 
۱ درصد ۴/۵ ۹/۳ ۳/۲ ۰۰ 
شکل واژه 
فراوانی ۴۰/۳۰۰۰ و۳ ۱۲۳۹/۰۰ ۱۳۰۸۰ 
فرایند 
درصد ۳۹/۱ ۳۹/۸ ۳/۱ ۰۰ 
فراوانی ۱:۹۰ 1۳۰۰ 1۹۰۰۰ ۱۵۸۳۰ 
جمع کل 
درصد ۳۹/۸ ۳۹/۵ ۳/۶ ۰۰ 


۸۴ مطالعات تربیتی و روانشناسی دانشگاه فردوسی مشهد دوره دهم شماره ۰۲ سال ۱۳۸۸ 


کاوشگران از میان دو شکل بالاء آن صورتی را انتخاب می‌ کنند که پیشتر به نوشتن آن عادت 
کرده‌اند. در نتیجه» صفحه‌های زیادی را که ممکن است حاوی اطلاعات با ارزشی باشند. از دست می - 
دهند. 
۴ واژه‌های خاص در پیوسته‌نوسی و جدانویسی 


جدول ۱۴: تعداد بازیافت‌ها برای دو کلیدواژه "مورچه گان" یا "مورچگان" (2-) 


۱ ِ موتور کاوش 
دب آماره ۰ 
ِِ ول | _ هو [ آناویت | کل 
2 فراوانی 2۶۲ 2۷۸ ۷.۰ ۳۰۴۰ 
مورچه گان 
درصد ۳۲/۵ ۳۳/۲ ۳۴/۳ ۳۰۰ 
۵ فر اواز ۱۹ ۱۶۳ ۱۷۴ ۱۴۳۳۷ 
‌ 7 فراواین ۹۰ : 1 ۳ 
مورچکان 
درصد 1/۴ ۱/۴ ۳/۲ ۰۰ 
فراوانی ۱۱۵۶۲ ۲۳۰۸ ۱۴۴۰ رم( 
جمع کل 
درصد ۳/۹ ۴/۲ ۸۰ ۰۰ 


داده‌های جدول بیانگر این است که شکل نوشتاری مورچگان بازیافت‌های بیشتری در بر داشته 
است و تمایل برای حذف "های بیان حرکت " در بین نویسندگان وجود دارد. 


۵ "تای " منقوط 
جدول ۱۵: تعداد بازیافت‌ها برای مقوله "تای " منقوط (2-ه) 


۱ ِ موتور کاوش 
متغیر آماره ِ جمع 
ک و کل پاهو آ لتاویستا ّ 
فراوانی ۹۳ ۳۷ ۳۱۸۰۰ ۳۱۳۳۰ 
توراة 
۱ درصد 1/۴ ۸۴ ۸/۲ ۰۰ 
شکل واژه 
فراوانی ۱۱۸۰۰ 2۵۰ 2 ۳۱۰۹۷/۳۰۰ 
تورات 
درصد ۳۴/۷ ۳/۴ ۳۳/۹ ۳-۰۰ 
فراوانی ۱۷/۱۸۹۳ ۷ ۹۳۱۱۰ ۱۳۹۰ 
جمع کل 
درصد ۳/۳ ۳۸/۵ ۴۰/۱ ۳۰۰ 


دوره دهم شماره ۲» سال ۱۳۸۸ چالش‌های شیوه نگارش زبان فارسی ۸۵ 


1 
۱ 


در این مورد تعداد کمی نتیجه برای کلمه "توراة" آمده است (به استثنای آتاو شتا اور ای ات 
توان گفت که تمایل نویسند گان به نوشتن "تای " منقوط به صورت «ت» است. اما همچنان صفحه‌هایی 
وجود دارند که با "8" ذخیره شده‌اند و ممکن است دارای اطلاعات خوبی باشند. 

۶ شانه "تشدید " 


جدول ۱۶: تعداد بازیات‌ها برای مقوله نشانه "تشدید " (2ه) 


۱ موتور کاوش 
ب آماره ِ ۰ 
کر عوقل _ ] _ پاهو | اناوت | که کل 
فراوانی ۴۳۴۳۰۰۰ ۴۳-۷۳۰ ۴۳۷۳۰۰۰ ۱۱۳/۰ 
موحدی 
۱ درصد ۳۳/۰ ۳۳/۹ ۳۴/۸ ۳-۰ 
شکل واژه 
فراوانی ۷۳۰۰۰ ۴۵۴۰۰ ۴۸۰۰۰۰ ۱۱۴۰۰ 
موحدی 
درصد ۹/۳4 ۳۹/۰ ۱/۳ ۰ 
فراوانی 29 ۹۳۱۰۰ ۹۵.۰۰ ۱۲۱-2۱۰۰ 
جمع کل 
درصد 1/۴ ۶/۲ 2/۴ ۰ 


بیشتر برای سرعت در کار ماشین‌نویسی. نک م۳ نوشته نمی‌شود. این امر علاوه بر این که در 
هم‌نگاشت‌ها تولید اشکال می‌کند» طبق جدول ۱۶ موجب بازیابی نشدن صفحه‌های اینترنتی به نسبت 


یکسان با کلیدواژه تشدیددار می‌شود. 
سوال ۳. آیا رابطه معناداری بین شکل واژه‌ها و نوع ابزار جستجو وجود دارد؟ 


میزان 1 مشاهده شده در سطح معناداری ۵۰/۰۵۳" نشان می‌دهد که بين شکل واژه و ابزار 
جستجو رابطه معناداری وجود دارد. بنابراین می‌توان نتیجه گرفت که به کار بردن یک شکل خاص از 
کلیدواژه و نیز استفاده از یک ابزار جستجوی خاص,. در بازیابی اطلاعات اثرگذار است. برای نمونه 
جستجوی واژه "مسئله " در موتور کاوش "آلتاویستا" بازیافت بیشتری نسبت به جستجوی واژه "مسأله" 
دارد. اما جستجو در موتور جستجوی یاهو به طور کامل نتیجه‌ای متفاوت به دست می‌دهد. 

همچنین مقدار ضریب ۳ به دست آمده بیانگر میزان ارتباط بین دو متغیر است. ضریب "فی " 
معیاری برای ارزیایی هم‌آیندی بین دو متغیر است. دامنه مقدارهای این معیار که جهت همآیندی را هم 


نشان می‌دهد. از ۱- تا ۱+ است. از این معیار می‌توان در ارزیابی هم آیندی میان متغیرهای اسمی چندین 


۸۶ مطالعات تربیتی و روانشناسی دانشگاه فردوسی مشهد دوره دهم شماره ۲» سال ۱۳۸۸ 


مقوله‌ای استفاده کرد (کورتز» ۱۳۷۴ :۳۴۵). 


جدول ۱۷: آزمون خی دو برای بررسی رابطه معناداری بین شکل واژه و ابزار جستجو 
متغیر درجه آزادی 1 سطح معناداری | ضریب فی 
پتاسیم /پتاسیوم ۲ ۱۹۸۴۶۵ ۱ 1-۱۸۴ 
زبانشناس/ زبان شناس / زبان‌شناس ۳ ۱۴ ۱ ۲ 
دقیقاً/ دقيقن ۲ 1۱۳۸۰ 1.۱ ۰۰ 
شمشیر باز/ شمشیر باز ۲ ۱۳( ۱ ۰/۷۵ 
پرتو آفتاب/ پرتوی آفتاب ۲ ۳ ۱ 12 ۴ 
باغ ها/ باغها ۲ ۱۰ ۱ ۰/۶۵ 
خانه من / خانهةٌ من / خانه‌ی من ۳ ۷۹۰۳۹۳۵ ۱ ۲" 
املا/ املاء ۲ ی ۱ ۰۱۱۳۷ 
عطایی / عطائی ۲ ۰ ۱۳۲۳ 1/۱ ۵۴ 
مسوول/ مسئول ۲ ۱-۷۰( ۱ ۰۴۴۸ 
مسئله/ مسأله ۲ ۱-۰( ۱ ۳۶۳ 
موسی / موسی / موسا ۳ ۱۴ ۱ ۰/۱۰ 
اتاق/ اطاق ۲ ۴( 1/۱ ۰۳۰ 
فرایند/ ف ر آیند ۲ ۵۱ 12۳ ۰/۵ 
مورچه گان/ مورچگان ۲ ۱۶۱ 1۱ ۳۲۰ 
تورات / توراة ۲ ۱۳-۸ ۱ ۰,۳۸۷ 
موحدی/ موخدی ۲ 9 ۱ ۰/۱۳۸ 


بحث و نتیجه گیری 


۱. شیوه نگارش فارسی باعث بروز چالش های جدی در امر نمایه سازی این زبان شده است. در 
بسیاری موارد چند شکل نگارشی» برای یک واژه درست شمرده شده است. این چندگونگی شکل 
واژه‌هاه برای واباله قابل درک نیست, تهراکه رایانه واژه‌ها را تهابه همان ضورتی که ذخره کرده اش 
می‌شناسد و بازیابی می‌کند. بنابراین در مقابل سایر شکل‌های نوشتاری» آن را اصطلاح دیگری محسوب 


کرده و در هنگام جستجوی اطلاعات آن را بازیابی نمی کند. 


دوره دهم شماره ۲» سال ۱۳۸۸ چالش‌های شیوه نگارش زبان فارسی ۸۷ 


۲ هیچکدام از موتورهای کاوش. چالش‌های شیوه‌های نگارش فارسی را به منظور بهبود نتیجه 
کاوش. مورد توجه قرار نداده‌اند. همان‌طور که سرو کا (2000 ,570168 بارایلان و گتمان  (‏ 1327-1120 
2 ,60۱0۳20 مقداد (2005 ,0۷0۵16064 و تاث (2006 ,08) در بررسی های خود نشان دادند» 
موتورهای کاوش عمومی وب. ویژگی‌های زبانی زبان‌های غیر انگلیسی را در جستجوی اطلاعات نادیده 
میگیرند. این یافته‌ها نگران کننده است. زیرا این موتورهای کاوش (برای مثال "گوگل ") در کشور ما؛ 
بسیار مورد توجه می‌باشند و بیشتر کاربران: از آنچه به هنگام جستجو در این ابزارها از دست می‌دهند 


آ گاهی ندارند. 
۳ بین شکل واژه و ابزار جستجو رابطه معناداری وجود دارد. 


بنابراین» به کار بردن یک شکل خاص از کلیدواژه و نیز استفاده از یک ابزار جستجوی خاص,. در 
بازیابی اطلاعات اثر گذار است. 


ابزارهای کاوش اینترنت» مهمترین فناوری حاضر برای دسترسی به اطلاعات در محیط وب به 
شمار می‌آیند. در حال حاضر ابزارهای کاوش مختلفی در جهان ظهور پیدا کرده‌اند. لیکن ابزارهای 
جستجویی که امکان جستجوی اطلاعات به زبان فارسی را ارائه می‌دهند» محدود می‌باشند. از طرف دیگره 
امکانات و قابلیت‌های آنها برای بازیایی کار آمد و مناسب اطلاعات متفاوت است. بی شک ابجاد یک ابزار 
کاوش قوی ملی» تحت نظارت سازمان‌های رایانه‌ای و انجمن‌های زبان‌شناسی و منطبق با نیازهای اطلاعاتی 


از طرفی به دلیل وجود مشکل هایی در خط فارسی. همواره برای استفاده از نرم‌افزارهایی چون 
8 برای وارد کردن متن توسط پویشگر به رایانه و همچنین استفاده از واژه پردازها و ابزارهای مورد 
استفاده در آنها مانند غلط یاب‌های دستوری و املایی محدودیت هایی وجود دارد. پردازش» خلاصه سازی 
و بازیابی اطلاعات ازمحتوای متن؛ تحلیل آن و استفاده از نرم‌افزارهای تبدیل متن به گفتار و برعکس» همه 
از مواردی هستند که به دلیل محدودیت‌های خاص خط فارسی استفاده از آنها به صورت کامل انجام نمی 
پذ یرد؛ پایگاه‌های اطلاعاتی که با استفاده از شیوه خط کنونی به ذخیره و بازیابی اطلاعات می‌پردازند 
نمی‌توانند کارایی مطلوب داشته باشند. همچنین عواملی که بدان اشاره شد» سبب کندی مراحل ذخیره و 
بازیابی اطلاعات شده و به نسبت بازیافت اطلاعات را کاهش می‌دهند. پایگاه‌های اطلاعاتی مدا رک 
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فارسی با وجود عمر کوتاه‌شان با مشکل های بسیاری در گیر هستند. در صورتی که برای این مشکل‌ها 


چاره‌ای اند یشیده نشود با توجه به حجم فزاینده اطلاعات. مهار آنها آسان نخواهد بود. 


پیشنهادهایی برای رفع چالش 

. بیشتر واژه‌پردازهای لاتین به نظام غلط‌یاب املایی مجهز هستند که کار نصحیح متن 
الکترونیکی را به صورت خود کار انجام می‌دهد. پيشنهاد می‌شود روش و الگوریتم‌های غلط‌یاب فارسی در 
برنامه پژوهشی استادان زبان‌شناس فارسی قرار گیرد تا تولید کنندگان نرم افزارهای واژه‌پرداز فارسی بتوانند 
با به کارگیری این روش‌ها؛ نرم‌افزارهای خود را به غلط یاب املایی خود کار مجهز کنند. 

۲ در واژه‌پردازهای پیشرفته با توجه به اصول دستور زبان امکان تصحیح دستوری متن 
الکترونیکی گنجانیده شود. برای دست‌یابی به نظام مشابه در زبان فارسی, لازم است استانداردهای نوشتار 

۳ نظام‌های بازیابی اطلاعات در زبان انگلیسی از امکانات ریشه‌سازی استفاده زیادی می‌کنند. در 
اننگوثه نظام‌هاء با وارد کردن یک واژه به عنوان کلیدواژه: نظام به‌طور خود کار تمامی مشتقات واژه را نیز 
جستجو می‌کند. برای نمونه اگر جستجوی "کتاب" مدنظر ما باشده واژه‌هایی نظیر کتابخانه " 
" کتابداری " "کتاب فروش " و مانند آنها نیز بازیابی می‌شود. پورتر " یکی از توانمندترین نظام‌های ریشه- 
یابی در زبان انگلیسی است. این نظام بر پایه دسته‌بندی واژه‌ها به کمک واج‌ها و هجاها بنا نهاده شده‌است. 
برای ایجاد چنین نظامی در زبان فارسیء باید متخصصان زبان‌شناسی و رایانه همکاری نزدیکی با هم 
داشته‌باشند. 

۴ در جهان کنونی بازنگری در شیوه نگارش فارسی را باید به شکل متفاوتی نسبت به گذشته 
انجام داد. ا گر در گذشته ادیبان به تنهایی برای اين امر تصمیم می گرفتند» هم اکنون تمامی کسانی که به 
نحوی با خط سر و کار دارند باید در تصمیم گیری دخالت داشته باشند. "فرهنگستان زبان و ادب فارسی " 
می‌تواند افرادی شامل گروه‌های زیر را مامور اين کار کند: 

 *‏ نویسندگان شاعران مترجمان, روزنامه‌نگاران و تمامی افرادی که به کار نوشتن مشغول 


هستند. 


م۳ !1 
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ویراستاران ونسخه‌پردازان؛ که تا کنون بار یکدست کردن شیوه نگارش متون بر دوش آنها 
بوده است. 

۶ زبان‌شناسان؛ که يشنهادها را با توجه به ساختار و کاربرد زبان» ارزیایی کنند. 

خوشنویسان و طراحان و به ویژه طراحان حروف؛ در طرح‌های موجود احساس می‌شود که 
توجه خاصی به زیبابی‌شناسی خط فارسی نشده است. در حالی که توجه به این امر که بخشی 

کتابداران و اطلاع‌رسانان که کار ترجمه نیازهای اطلاعاتی کاربران به زبان رایانه بر عهده 
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